| Cognoms:                                | Nom:              |
|-----------------------------------------|-------------------|
| 3er Control Arquitectura de Computadors | Curs 2011-2012 Q2 |

## Problema 1. (2 puntos)

Los dispositivos que no disponen de hardware específico de coma flotante deben realizar las operaciones de coma flotante por software. La función "sumamatrizescalar" escrita en C suma a su parámetro res todos los elementos del parámetro matfloats mediante llamadas a la rutina sumvecfloat que como su nombre indica realiza por software la suma en coma flotante de sus dos primeros parámetros (es decir, suma res y los N valores del vector vectorfloats), devolviendo un puntero al resultado. Recordad que los floats se representan mediante el formato IEEE 754 de simple precisión.

```
float *sumvecfloat(float *res, float vectorfloats[], int N)
void sumamatrizescalar(float *res, float matfloats[100][100])
{
   int i;
   for (i=0;i<100; i++)
      res=sumvecfloat(res, &matfloats[i][0], 100);
}</pre>
```

a) Dibujad el bloque de activación de la rutina sumamatrizescalar y traducidla a ensamblador x86.

| mis | ma.                                                                                                                                                                                                                                                                                                                                    |
|-----|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| b)  | Calculad los MIPS y MFLOPS del sistema.                                                                                                                                                                                                                                                                                                |
|     |                                                                                                                                                                                                                                                                                                                                        |
|     |                                                                                                                                                                                                                                                                                                                                        |
|     |                                                                                                                                                                                                                                                                                                                                        |
|     |                                                                                                                                                                                                                                                                                                                                        |
|     |                                                                                                                                                                                                                                                                                                                                        |
| por | ñadimos al procesador anterior una unidad aritmética de coma flotante podríamos substituir la llamada a la rutina sumvecfloa<br>las correspondientes operaciones en alto nivel. En este caso el bucle anterior tan solo tardaría 0,5 milisegundos en ejecutarse<br>o el procesador incrementaría su gasto en potencia media en un 10%. |
| c)  | Calculad cuál sería el porcentaje de ganancia en MFLOPS/W respecto al caso anterior.                                                                                                                                                                                                                                                   |
|     |                                                                                                                                                                                                                                                                                                                                        |
|     |                                                                                                                                                                                                                                                                                                                                        |
|     |                                                                                                                                                                                                                                                                                                                                        |
|     |                                                                                                                                                                                                                                                                                                                                        |

El código anterior se ejecuta en un procesador que funciona a una frecuencia de 500 MHz y tarda 1 milisegundo. Sabemos que la rutina sumvecfloat contiene 400 instrucciones estáticas que en media generan 5500 instrucciones dinámicas en cada llamada a la

| Cogn                                                                          | oms:                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | Nom:                                                                                                                                                                                                                                                             |
|-------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 3er C                                                                         | Control Arquitectura de Computadors                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 | Curs 2011-2012 Q2                                                                                                                                                                                                                                                |
| Problem                                                                       | <b>a 2.</b> (4 puntos)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |                                                                                                                                                                                                                                                                  |
| mientras<br>tiene una                                                         | una aplicación formada por dos fases. En una versión secuencial de la que la Fase 2 representa el 80% del tiempo. Esta aplicación se ejecuta e intensidad de fugas de 2,5 A, una carga capacitiva equivalente de 5 e alimentación de 1 V.                                                                                                                                                                                                                                                                           | n un chip con un solo procesador (core). Cada core                                                                                                                                                                                                               |
| a) Calc                                                                       | ula la potencia disipada por el chip de un solo core durante la ejecució                                                                                                                                                                                                                                                                                                                                                                                                                                            | n de la versión secuencial.                                                                                                                                                                                                                                      |
|                                                                               |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |                                                                                                                                                                                                                                                                  |
| integrado<br>podido se                                                        | rogramado una versión paralela de la misma aplicación para un mu<br>os en el chip. La Fase 1 no ha podido ser paralelizada, por lo que se eje<br>er paralelizada en 4 partes iguales de forma que el trabajo se distribuy<br>sincronización es despreciable).                                                                                                                                                                                                                                                       | ecutara en un solo core, sin embargo la Fase 2 ha                                                                                                                                                                                                                |
| a modo a<br>a 0,8 V y l<br>de funcio<br>resto pue<br>Boost). En<br>1 el proce | sadores actuales pueden pasar un core a modo bajo consumo cuando ectivo cuando el core vuelve a realizar trabajo útil. En nuestro caso, en la frecuencia a 1 GHz. Además, los últimos procesadores aparecidos en enamiento, de modo que durante las fases en que algunos cores están dan realizar su trabajo más rápido. Este modo lo denominaremos modo nuestro caso, en modo turbo, un core aumenta el voltaje a 1,2 V y la fiesador activo estaría en modo turbo, mientras el resto estarían en men modo normal. | modo bajo consumo, el voltaje del core se reduce<br>el mercado son capaces de aumentar la frecuencia<br>en modo bajo consumo (no hacen trabajo útil), el<br>turbo (AMD lo denomina Turbo Core e Intel Turbo<br>recuencia a 3 GHz. Obsérvese que, durante la Fase |
|                                                                               | <b>ula</b> el speed-up al ejecutar la versión paralela en el multiprocesador de n solo core.                                                                                                                                                                                                                                                                                                                                                                                                                        | 4 cores respecto a la versión secuencial ejecutada                                                                                                                                                                                                               |
|                                                                               |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |                                                                                                                                                                                                                                                                  |
| c) <b>Calc</b>                                                                | ula la potencia disipada por el chip de 4 cores durante la ejecución de                                                                                                                                                                                                                                                                                                                                                                                                                                             | la Fase 1 en la versión paralela                                                                                                                                                                                                                                 |
|                                                                               |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |                                                                                                                                                                                                                                                                  |
| d) Calc                                                                       | ula la potencia media disipada por el chip de 4 cores durante la ejecuc                                                                                                                                                                                                                                                                                                                                                                                                                                             | ión de la versión paralela.                                                                                                                                                                                                                                      |
|                                                                               |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |                                                                                                                                                                                                                                                                  |
|                                                                               | ula la ganancia en energía de la versión paralela ejecutada en el m<br>Jencial ejecutada en un solo core                                                                                                                                                                                                                                                                                                                                                                                                            | ultiprocesador de 4 cores respecto a la versión                                                                                                                                                                                                                  |
|                                                                               |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |                                                                                                                                                                                                                                                                  |

En este multiprocesador, cada core tiene una cache de datos (D1) y una de instrucciones (I1) local. Además, los 4 cores comparten una cache unificada de segundo nivel (L2). Las caches de datos de los 4 cores se comunican entre ellas y con L2 por medio de un bus compartido.

Con un juego de datos determinado, la versión secuencial de la aplicación, ejecutada en un solo core en modo normal (a 2GHz), ha tardado  $15x10^9$  ciclos y se han realizado  $5x10^9$  accesos a datos (el impacto de los accesos a instrucciones es despreciable). En la versión secuencial, la tasa de fallos en el primer nivel de cache de datos (D1) ha sido del 10% y se ha medido un tiempo de penalización medio por fallo de 20 ciclos (incluye los accesos a L2 y los fallos de L2 que se han servido desde memoria principal). La tasa de fallos y el tiempo de penalización es el mismo en la Fase 1 y la Fase 2, y el numero de accesos se distribuye proporcionalmente al tiempo de cada fase (20% y 80% respectivamente).

| t)                         | Calcula cuantos ciclos tardaria la versión secuencial si no hubiese fallos en la cache de datos.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
|----------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|                            |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |
|                            | a versión paralela la Fase 1 se ejecuta sobre un solo core a 3GHz (modo turbo). La tasa de fallos se ha mantenido en el 10% pero<br>iempo medio de penalización por fallo es de 30 ciclos.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |
| g)                         | <b>Explica</b> porque la penalización por fallo ha pasado de 20 a 30 ciclos siendo las caches iguales en ambos procesadores. <b>Calcula</b> los ciclos de la Fase 1 de la versión paralela ejecutada en el multiprocesador de 4 cores teniendo en cuenta la jerarquía de memoria                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
|                            |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |
| aum<br>pen<br>core<br>es d | rante la Fase 2, en la versión paralela, los 4 cores están en modo normal (2 GHz), la tasa de fallos de las caches de datos (D1) ha<br>nentado al 15% por las invalidaciones debidas al mecanismo de coherencia entre los distintos cores. Respecto al tiempo de<br>nalización por fallo, en la Fase 2, pueden darse 2 situaciones: 1) el bloque de memoria puede obtenerse de la cache D1 de otro<br>e, en cuyo caso el tiempo de penalización es de 6 ciclos; 2) debe obtenerse de L2, en cuyo caso el tiempo de penalización medio<br>de 21 ciclos (ligeramente mayor que en la versión secuencial debido a la mayor saturación del bus de datos). Se ha observado<br>de el 60% de los fallos son servidos desde otro core y el resto desde L2. |
| h)                         | Calcula cuantos ciclos tardaría la Fase 2 de la versión paralela ejecutada en el multiprocesador de 4 cores teniendo en cuenta la jerarquía de memoria.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |
|                            |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |
| <u>i)</u>                  | Calcula el speed-up de la versión paralela sobre la secuencial teniendo en cuenta la jerarquía de memoria.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |
|                            |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |

| Cognoms:                                   | Nom:              |
|--------------------------------------------|-------------------|
| Examen Final d'Arquitectura de Computadors | Curs 2011-2012 Q2 |

## Problema 3. (2 puntos)

En la figura adjunta se presenta el código de un sistema de control industrial. En este código se identifican 3 fases: **RecolectarDatos**, en esta fase básicamente se leen 4GB ( $4\cdot10^9$  bytes) de datos, en bloques de 1MB ( $10^6$  bytes) del sistema de almacenamiento; **ProcesarDatos**, en esta fase se procesan los datos leídos (esta fase es totalmente paralelizable); y **MostrarResultados**, en esta fase se procesan los resultados de la fase previa para presentar los resultados (esta fase es totalmente secuencial).

```
for (;;) {
  RecolectarDatos();
  ProcesarDatos();
  MostrarResultados();
}
```

Una iteración de esta aplicación tarda en ejecutarse 80s, distribuidos así: RecolectarDatos 20s, ProcesarDatos 55s, MostrarResultados 5s.

a) Suponiendo que disponemos de un infinito número de procesadores, calculad cual sería el speedup máximo que podríamos obtener si paralelizamos esta aplicación.

En realidad, es muy difícil paralelizar una aplicación sin tener algún tipo de penalización. Se ha evaluado que paralelizar esta aplicación tiene una penalización fija de 5 s y una penalización variable de 1 s por cada procesador (por iteración).

b) Calculad el número de procesadores óptimo para esta aplicación, así como el tiempo de ejecución.

Para optimizar esta aplicación necesitamos mejorar las fases no paralelas. Hemos decidido utilizar un sistema de almacenamiento RAID5 con 8 discos de 1TB, y un ancho de banda de 200 MB/s por disco y bloques de 1MB.

c) **Calculad** el tiempo de ejecución de RecolectarDatos, contando exclusivamente el tiempo de transferencia de información y suponiendo que los 4GB son accesos aleatorios uniformemente distribuidos.

Esta aplicación se ejecuta en un entorno industrial en condiciones extremas. Esto provoca que algunos accesos al sistema de almacenamiento no se realicen por un error de lectura. Cada vez que se produce un error en lectura, el controlador de disco ha de obtener el bloque que no ha podido leer utilizando el resto del RAID5. En la siguiente figura mostramos de forma parcial el RAID5,



d) Suponiendo que no hemos podido leer el bloque D, qué hay que hacer para que el RAID5 pueda obtener el bloque D.

con el contenido de los bloques A, B, ... G, así como su paridad, que en este caso estaría almacenado en el disco4.

e) Si el 5% de los accesos a un bloque en el RAID producen un error de lectura, ¿cual sería el tiempo de penalización por esta causa?

## Problema 4. (2 puntos) (problema 3.8 de la colección)

Tenemos un procesador con memoria virtual basado en paginación. El sistema de memoria virtual tiene 16 bits de dirección lógica, 15 bits de dirección física y páginas de 8Kbytes. El contenido inicial de la tabla de páginas se muestra en la Figura 1, donde: VPN = virtual page number, P = bit de presencia, M = bit de página modificada y PPN = physical page number. La Figura 2 muestra el contenido de la memoria física.

Figura 1 Contenido inicial de la Tabla de Páginas

| VPN | Р | Μ | PPN |
|-----|---|---|-----|
| 0   | 0 | 0 | -   |
| 1   | 0 | 0 | -   |
| 2   | 1 | 0 | 0   |
| 3   | 1 | 0 | 1   |
| 4   | 1 | 0 | 2   |
| 5   | 0 | 0 | -   |
| 6   | 0 | 0 | -   |
| 7   | 0 | 0 | -   |

Figura 2 Contingut inicial de Memoria

| página<br>lógica |
|------------------|
| 2                |
| 3                |
| 4                |
| -                |
|                  |

En caso que la memoria física se llene y haga falta reemplazar una página se sigue un algoritmo de reemplazo LRU. De las 3 páginas inicialmente presentes en memoria:

- la página física 1 (lógica 3) es la más recientemente accedida
- la siguiente es la página física 0 (lógica 2)
- la que hace más tiempo que ha sido accedida es la física 2 (lógica 4).
- a) **Rellena** la siguiente tabla indicando, para cada referencia, la página lógica (VPN), el desplazamiento, la dirección física resultante de la traducción, indicando con una cruz (X) cuando se produce fallo de página, cuando se lee de disco duro y cuando se escribe en disco duro, y en caso de reemplazar una página indicad el VPN y el PPN de la página reemplazada.

| dirección | ógica | VPN<br>(hexa) | desplazamiento<br>(hexa) | dirección física<br>(hexa) | fallo de<br>página | lectura<br>disco | escritura<br>disco | Página reemplazada |     |
|-----------|-------|---------------|--------------------------|----------------------------|--------------------|------------------|--------------------|--------------------|-----|
| (hexa     | 1)    |               |                          |                            |                    |                  |                    | VPN                | PPN |
| escritura | F458  |               |                          |                            |                    |                  |                    |                    |     |
| escritura | 8666  |               |                          |                            |                    |                  |                    |                    |     |
| lectura   | 1BBF  |               |                          |                            |                    |                  |                    |                    |     |
| escritura | 5C44  |               |                          |                            |                    |                  |                    |                    |     |
| lectura   | 6600  |               |                          |                            |                    |                  |                    |                    |     |
| lectura   | 4000  |               |                          |                            |                    |                  |                    |                    |     |

b) Indica el contenido final de la tabla de páginas y de la memoria física

Contenido final de la Tabla de Páginas

| VPN | Р | М | PPN |
|-----|---|---|-----|
| 0   |   |   |     |
| 1   |   |   |     |
| 2   |   |   |     |
| 3   |   |   |     |
| 4   |   |   |     |
| 5   |   |   |     |
| 6   |   |   |     |
| 7   |   |   |     |

Contenido final de Memoria

| página<br>física | página<br>Iógica |
|------------------|------------------|
| 0                |                  |
| 1                |                  |
| 2                |                  |
| 3                |                  |